智能论文笔记

Secure Routine: A Routine-Based Algorithm for Drivers Identification

Davide Micale , Gianpiero Costantino , Ilaria Matteucci , Giuseppe Patanè , Giampaolo Bella

分类：机器学习

2021-12-12

在运输系统中引入信息和通信技术（ICT）导致了几个优势（运输，移动性，交通管理）。然而，它可能在增加安全挑战方面带来一些缺点，也与人类行为有关。作为一个例子，在过去的几十年中，尝试表征驱动程序的行为大多是针对性的。本文提出了一种安全的例程，一种范式，它使用驾驶员习惯来探讨驱动程序识别，特别是将车辆的所有者与其他驱动程序区分开来。我们根据机器学习技术与其他三项现有研究工作相结合评估安全的例程。结果是使用众所周知的指标来测量的，并显示安全的常规优于比较的作品。

translated by 谷歌翻译

POPNASv3: a Pareto-Optimal Neural Architecture Search Solution for Image and Time Series Classification

Andrea Falanti , Eugenio Lomurno , Danilo Ardagna , Matteo Matteucci

分类：机器学习 | 人工智能 | 计算机视觉 | 神经与进化计算

2022-12-13

The automated machine learning (AutoML) field has become increasingly relevant in recent years. These algorithms can develop models without the need for expert knowledge, facilitating the application of machine learning techniques in the industry. Neural Architecture Search (NAS) exploits deep learning techniques to autonomously produce neural network architectures whose results rival the state-of-the-art models hand-crafted by AI experts. However, this approach requires significant computational resources and hardware investments, making it less appealing for real-usage applications. This article presents the third version of Pareto-Optimal Progressive Neural Architecture Search (POPNASv3), a new sequential model-based optimization NAS algorithm targeting different hardware environments and multiple classification tasks. Our method is able to find competitive architectures within large search spaces, while keeping a flexible structure and data processing pipeline to adapt to different tasks. The algorithm employs Pareto optimality to reduce the number of architectures sampled during the search, drastically improving the time efficiency without loss in accuracy. The experiments performed on images and time series classification datasets provide evidence that POPNASv3 can explore a large set of assorted operators and converge to optimal architectures suited for the type of data provided under different scenarios.

translated by 谷歌翻译

SpaceQA: Answering Questions about the Design of Space Missions and Space Craft Concepts

Andrés García-Silva , Cristian Berrío , José Manuel Gómez-Pérez , José Antonio Martínez-Heras , Alessandro Donati , Ilaria Roma

分类：自然语言处理 | 人工智能

2022-10-07

We present SpaceQA, to the best of our knowledge the first open-domain QA system in Space mission design. SpaceQA is part of an initiative by the European Space Agency (ESA) to facilitate the access, sharing and reuse of information about Space mission design within the agency and with the public. We adopt a state-of-the-art architecture consisting of a dense retriever and a neural reader and opt for an approach based on transfer learning rather than fine-tuning due to the lack of domain-specific annotated data. Our evaluation on a test set produced by ESA is largely consistent with the results originally reported by the evaluated retrievers and confirms the need of fine tuning for reading comprehension. As of writing this paper, ESA is piloting SpaceQA internally.

translated by 谷歌翻译

On the utility and protection of optimization with differential privacy and classic regularization techniques

Eugenio Lomurno , Matteo matteucci

分类：机器学习 | 人工智能

2022-09-07

如今，深度学习模型的所有者和开发人员必须考虑其培训数据的严格隐私保护规则，通常是人群来源且保留敏感信息。如今，深入学习模型执行隐私保证的最广泛采用的方法依赖于实施差异隐私的优化技术。根据文献，这种方法已被证明是针对多种模型的隐私攻击的成功防御，但其缺点是对模型的性能的实质性降级。在这项工作中，我们比较了差异私有的随机梯度下降（DP-SGD）算法与使用正则化技术的标准优化实践的有效性。我们分析了生成模型的实用程序，培训性能以及成员推理和模型反转攻击对学习模型的有效性。最后，我们讨论了差异隐私的缺陷和限制，并从经验上证明了辍学和L2型规范的卓越保护特性。

translated by 谷歌翻译

Contrastive Audio-Language Learning for Music

Ilaria Manco , Emmanouil Benetos , Elio Quinton , György Fazekas

分类：自然语言处理 | 机器学习

2022-08-25

作为人类已知的最直观的界面之一，自然语言有可能调解许多涉及人类计算机互动的任务，尤其是在音乐信息检索等以应用程序为中心的领域。在这项工作中，我们探索了跨模式学习，以试图在音乐领域弥合音频和语言。为此，我们提出了Muscall，这是音乐对比的音频学习框架。我们的方法由双重编码架构组成，该体系结构了解音乐音频和描述性句子对之间的对齐方式，生成可用于文本到原告和音频到文本检索的多模式嵌入。多亏了这个属性，肌肉几乎可以转移到任何可以作为基于文本检索的任务转移到任何任务。我们的实验表明，我们的方法在检索音频时的性能要比基线要好得多，该音频与文本描述匹配，相反，与音频查询匹配的文本。我们还证明，我们的模型的多模式对齐能力可以成功扩展到零摄像转移方案，用于流派分类和在两个公共数据集上自动标记。

translated by 谷歌翻译

HTML版本

FetReg2021: A Challenge on Placental Vessel Segmentation and Registration in Fetoscopy

Sophia Bano , Alessandro Casella , Francisco Vasconcelos , Abdul Qayyum , Abdesslam Benzinou , Moona Mazher , Fabrice Meriaudeau , Chiara Lena , Ilaria Anita Cintorrino , Gaia Romana De Paolis

分类：人工智能 | 计算机视觉 | 机器学习

2022-06-24

胎儿镜检查激光光凝是一种广泛采用的方法，用于治疗双胞胎输血综合征（TTTS）。该过程涉及光凝病理吻合术以调节双胞胎之间的血液交换。由于观点有限，胎儿镜的可操作性差，可见性差和照明的可变性，因此该程序尤其具有挑战性。这些挑战可能导致手术时间增加和消融不完全。计算机辅助干预措施（CAI）可以通过识别场景中的关键结构并通过视频马赛克来扩展胎儿镜观景领域，从而为外科医生提供决策支持和背景意识。由于缺乏设计，开发和测试CAI算法的高质量数据，该领域的研究受到了阻碍。通过作为MICCAI2021内窥镜视觉挑战组织的胎儿镜胎盘胎盘分割和注册（FETREG2021）挑战，我们发布了第一个Largescale Multencentre TTTS数据集，用于开发广义和可靠的语义分割和视频摩擦质量algorithms。对于这一挑战，我们发布了一个2060张图像的数据集，该数据集是从18个体内TTTS胎儿镜检查程序和18个简短视频剪辑的船只，工具，胎儿和背景类别的像素通道。七个团队参与了这一挑战，他们的模型性能在一个看不见的测试数据集中评估了658个从6个胎儿镜程序和6个短剪辑的图像的图像。这项挑战为创建通用解决方案提供了用于胎儿镜面场景的理解和摩西式解决方案的机会。在本文中，我们介绍了FETREG2021挑战的发现，以及报告TTTS胎儿镜检查中CAI的详细文献综述。通过这一挑战，它的分析和多中心胎儿镜数据的发布，我们为该领域的未来研究提供了基准。

translated by 谷歌翻译

Object Structural Points Representation for Graph-based Semantic Monocular Localization and Mapping

Davide Tateo , Davide Antonio Cucci , Matteo Matteucci , Andrea Bonarini

分类：计算机视觉

2022-06-21

单眼语义同时定位和映射（SLAM）的有效对象级别表示仍然缺乏广泛接受的解决方案。在本文中，我们提出了基于结构点的有效表示的使用，以基于姿势格式的配方在单眼语义大满贯系统中用作地标的几何形状。特别是，为姿势图中的地标节点提出了一个反深度参数化，以存储对象位置，方向和大小/比例。所提出的配方是一般的，可以应用于不同的几何形状。在本文中，我们关注的是室内环境，其中人工制品通常具有平面矩形形状，例如窗户，门，橱柜等。模拟中的实验表现出良好的性能，尤其是在对象几何重建中。

translated by 谷歌翻译

Preliminary study on the impact of EEG density on TMS-EEG classification in Alzheimer's disease

Alexandra-Maria Tautan , Elias Casula , Ilaria Borghi , Michele Maiella , Sonia Bonni , Marilena Minei , Martina Assogna , Bogdan Ionescu , Giacomo Koch , Emiliano Santarnecchi

分类：机器学习

2022-05-19

与脑电图（TMS-EEG）共同注册的经颅磁刺激先前已证明是对阿尔茨海默氏病（AD）研究的有用工具。在这项工作中，我们研究了使用TMS诱发的脑电图反应的使用，以对健康对照（HC）分类AD患者。通过使用包含17AD和17HC的数据集，我们从单个TMS响应中提取各种时域特征，并在低，中和高密度EEG电极集中平均它们。在保留一项受试者的验证方案中，使用带有随机森林分类器的高密度电极获得了AD与HC的最佳分类性能。准确性，灵敏度和特异性分别为92.7％，96.58％和88.2％。

translated by 谷歌翻译

Learning music audio representations via weak language supervision

Ilaria Manco , Emmanouil Benetos , Elio Quinton , Gyorgy Fazekas

分类：自然语言处理 | 机器学习

2021-12-08

音乐信息检索的音频表示通常通过以特定于任务的方式通过监督学习来学习。虽然有效地产生最先进的结果，但该方案对于模型可以具有并且需要广泛的注释数据集的应用范围缺乏灵活性。在这项工作中，我们构成了是否可以利用弱对齐文本作为唯一用于学习通用音频音频表示的监督信号的问题。为了解决这个问题，我们设计了通过一组代理任务优化的音乐和语言预训练（Mulap）的多模式架构。弱监管以嘈杂的自然语言描述形式传达轨道的整体音乐纪念。在预训练之后，我们将模型的音频骨干转换为一组音乐音频分类和回归任务。我们通过比较通过不同培训策略产生的相同音频骨干声音产生的音频表示的性能并表明我们的预训练方法始终如一地实现所有任务和数据集所考虑的可比分数，因此证明了我们的方法。我们的实验还证实，Mulap有效利用音频标题对，以学习与文献中的音频和跨模型自我监督方法具有竞争力的表示。

translated by 谷歌翻译

E$^2$(GO)MOTION: Motion Augmented Event Stream for Egocentric Action Recognition

Chiara Plizzari , Mirco Planamente , Gabriele Goletto , Marco Cannici , Emanuele Gusso , Matteo Matteucci , Barbara Caputo

分类：计算机视觉

2021-12-07

事件摄像机是新型生物启发传感器，其异步捕获“事件”形式的像素级强度变化。由于它们的传感机制，事件相机几乎没有运动模糊，这是一个非常高的时间分辨率，并且需要比传统的基于帧的相机更小的电力和存储器。这些特性使它们成为一个完美的拟合若干现实世界应用，如在可穿戴设备上的专门动作识别，其中快速相机运动和有限的电力挑战传统视觉传感器。然而，迄今为止，基于事件的愿景的不断增长的愿景领域已经忽略了在此类应用中的活动摄像机的潜力。在本文中，我们表明事件数据是自我监测行动识别的非常有价值的模态。为此，我们介绍了N-EPIC-Kitchens，这是大型史诗厨房数据集的第一个基于事件的相机扩展。在此背景下，我们提出了两种策略：（i）使用传统的视频处理架构（E $ ^ 2 $（GO））和（ii）使用事件数据直接处理事件相机数据（E $ ^ 2 $（GO））和蒸馏光流信息（E $ ^ 2 $（go）mo）。在我们提出的基准测试中，我们表明事件数据为RGB和光流提供了可比性的性能，但在部署时没有任何额外的流量计算，以及相对于RGB的信息高达4％的性能。

translated by 谷歌翻译